Cross Validation (K-Fold, Stratified K-Fold)

Machine Learning - মেশিন লার্নিং (Machine Learning) - Model Evaluation এবং Validation Techniques

314

Cross-validation হলো একটি শক্তিশালী কৌশল যা মডেল প্রশিক্ষণের সময় ডেটার একাধিক সেট ব্যবহার করে মডেলের পারফরম্যান্স মূল্যায়ন করার জন্য। এটি ওভারফিটিং (overfitting) রোধে এবং মডেলের সাধারণীকরণের ক্ষমতা (generalization) বৃদ্ধি করতে সহায়ক। K-Fold Cross Validation এবং Stratified K-Fold Cross Validation হল দুটি জনপ্রিয় এবং কার্যকরী ক্রস ভ্যালিডেশন পদ্ধতি।

১. K-Fold Cross Validation:

K-Fold Cross Validation হল একটি পদ্ধতি যা ডেটাসেটকে Kটি সমান অংশে (folds) ভাগ করে এবং প্রতিটি অংশ একটি করে পরীক্ষা ডেটাসেট হিসেবে ব্যবহৃত হয়। প্রতিটি ফোল্ডের জন্য, মডেলটি প্রশিক্ষণ এবং মূল্যায়ন করা হয় এবং শেষে মধ্যম বা গড় সঠিকতা বা স্কোর গণনা করা হয়। এটি মডেলের পারফরম্যান্সের একটি নির্ভরযোগ্য এবং স্থিতিশীল পরিমাপ প্রদান করে।

K-Fold Cross Validation এর কাজের প্রক্রিয়া:

ডেটাসেটটি Kটি সমান অংশে (folds) ভাগ করা হয়।
প্রথমে প্রথম fold টেস্ট ডেটা হিসেবে এবং বাকি K-1 folds প্রশিক্ষণ ডেটা হিসেবে ব্যবহৃত হয়।
প্রশিক্ষিত মডেলটি টেস্ট ফোল্ডের ওপর পরীক্ষা করা হয়।
প্রক্রিয়াটি সমস্ত ফোল্ডের জন্য পুনরাবৃত্তি করা হয়।
সমস্ত ফোল্ডের পরীক্ষার ফলাফল গড় করা হয় এবং এটি মডেলের কার্যকারিতা হিসেবে ধরা হয়।

K-Fold এর সুবিধা:

ডেটার প্রতিটি অংশই একবার টেস্ট সেট হিসেবে ব্যবহৃত হয়, যার ফলে মডেলের পারফরম্যান্স সম্পর্কে একটি স্থিতিশীল ধারণা পাওয়া যায়।
এটি ডেটার পূর্ণ ব্যবহার নিশ্চিত করে, যা প্রশিক্ষণ এবং পরীক্ষণের জন্য সাহায্যকারী।

কোড উদাহরণ:

from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# ডেটা লোড করা
data = load_iris()
X = data.data
y = data.target

# KFold সেটিংস (K=5)
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# মডেল তৈরি
model = RandomForestClassifier()

# ক্রস ভ্যালিডেশন করা
scores = cross_val_score(model, X, y, cv=kf)

print(f"Cross-validation scores: {scores}")
print(f"Mean accuracy: {scores.mean()}")

২. Stratified K-Fold Cross Validation:

Stratified K-Fold হল K-Fold Cross Validation এর একটি উন্নত সংস্করণ, যা বিশেষ করে ক্লাস ইমব্যালেন্স (class imbalance) সমস্যাগুলির জন্য উপযোগী। যেখানে বিভিন্ন শ্রেণী (class) বা লেবেল (label) সঠিকভাবে প্রতিনিধিত্বিত না থাকে, সেখানে Stratified K-Fold ব্যবহার করা হয়। এটি নিশ্চিত করে যে প্রতিটি ফোল্ডে শ্রেণীগুলির অনুপাত মোট ডেটাসেটের মতোই থাকবে।

এটি মূলত ক্লাসিফিকেশন সমস্যা সমাধানে ব্যবহৃত হয়, যেখানে শ্রেণীভিত্তিক ডেটার সঠিক রিপ্রেজেন্টেশন খুব গুরুত্বপূর্ণ।

Stratified K-Fold এর সুবিধা:

শ্রেণীগুলির বৈচিত্র্য বজায় থাকে, যাতে মডেলটি ক্লাস ইমব্যালেন্স সমস্যায় উপযুক্তভাবে কাজ করতে পারে।
প্রতিটি ফোল্ডে ক্লাসের অনুপাত সঠিকভাবে থাকে, ফলে মডেলের পারফরম্যান্সের একটি সঠিক মূল্যায়ন পাওয়া যায়।

কোড উদাহরণ:

from sklearn.model_selection import StratifiedKFold
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# ডেটা লোড করা
data = load_iris()
X = data.data
y = data.target

# StratifiedKFold সেটিংস (K=5)
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# মডেল তৈরি
model = RandomForestClassifier()

# ক্রস ভ্যালিডেশন করা
scores = cross_val_score(model, X, y, cv=skf)

print(f"Cross-validation scores: {scores}")
print(f"Mean accuracy: {scores.mean()}")

K-Fold এবং Stratified K-Fold এর মধ্যে প্রধান পার্থক্য:

বৈশিষ্ট্য	K-Fold Cross Validation	Stratified K-Fold Cross Validation
বৈশিষ্ট্য	ডেটা কেবলমাত্র অংশে ভাগ করা হয়	শ্রেণীর (class) অনুপাত সমানভাবে ভাগ করা হয়
ব্যবহার	সাধারণত রিগ্রেশন সমস্যা	ক্লাসিফিকেশন সমস্যা (বিশেষত ক্লাস ইমব্যালেন্স সমস্যা)
ক্লাস ইমব্যালেন্স	সমস্যাটি পরিচালনা করতে পারে না	শ্রেণীগুলির অনুপাত সঠিকভাবে ভাগ করে
ফলাফল	ক্লাসের অনুপাতের কোন নিশ্চয়তা নেই	ক্লাসের অনুপাতের সঠিক রিপ্রেজেন্টেশন থাকে

উপসংহার:

K-Fold Cross Validation একটি সাধারণ এবং জনপ্রিয় টেকনিক যা মডেলের কার্যকারিতা যাচাই করতে ব্যবহৃত হয়, কিন্তু কিছু ক্ষেত্রে Stratified K-Fold বিশেষভাবে ক্লাস ইমব্যালেন্স ডেটার জন্য বেশি উপকারী।
Stratified K-Fold ব্যবহার করলে মডেলের ট্রেনিং এবং টেস্টিং এর মধ্যে শ্রেণীগুলির সঠিক অনুপাত থাকে, যা ক্লাসিফিকেশন মডেলের সঠিক মূল্যায়ন নিশ্চিত করে।

Content added By

Md Azizar Rahman Aziz

Model Evaluation Metrics (Accuracy, Precision, Recall, F1 Score) Confusion Matrix, ROC-AUC Curve Bias-Variance Tradeoff এর সমস্যা

Cross Validation (K-Fold, Stratified K-Fold)

১. K-Fold Cross Validation:

K-Fold Cross Validation এর কাজের প্রক্রিয়া:

K-Fold এর সুবিধা:

কোড উদাহরণ:

২. Stratified K-Fold Cross Validation:

Stratified K-Fold এর সুবিধা:

কোড উদাহরণ:

K-Fold এবং Stratified K-Fold এর মধ্যে প্রধান পার্থক্য:

উপসংহার:

Promotion

Satt AI

Hi, আমি SATT AI!

Cross Validation (K-Fold, Stratified K-Fold)

১. K-Fold Cross Validation:

K-Fold Cross Validation এর কাজের প্রক্রিয়া:

K-Fold এর সুবিধা:

কোড উদাহরণ:

২. Stratified K-Fold Cross Validation:

Stratified K-Fold এর সুবিধা:

কোড উদাহরণ:

K-Fold এবং Stratified K-Fold এর মধ্যে প্রধান পার্থক্য:

উপসংহার:

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!